58用户画像实践
The following article is from 58技术 Author 舒凯,张开元
“人总喜欢做自己擅长的事,人总希望某些人知道他就在那儿。”
《清单人生》
弗雷德里克·巴克曼
作为世界最大的生活服务平台,我们同样也希望用户知道“58就在那儿!”。要做到这一点,我们首先就需要具有对用户洞若观火、明察秋毫的能力,而58用户画像的建设就是以此为目标的。
自58成立以来,我们现已拥有数亿的注册用户;业务场景包罗万象,从衣食住行(房产、58车、二手物品)到工作生活(招聘、上门服务等)应有尽有;公司群规模庞大,包含同城、赶集、安居客、英才、转转、到家等。在这种多用户、多业务线、多子公司的情况下,用户数据必然种类繁杂,能够描绘一个用户的信息可能多至数千维度,但是每一次需求如果都从源头提取,人力与时间的成本都会非常高,并且也很困难;虽然各子公司数据之间却存在相互补足的潜力,但是其各自之间数据独立,需要打通来自不同场景的数据,才能将用户刻画的更加完善,为了改善这些现状,58用户画像系统孕育而生。
一、58用户画像介绍
58用户画像现已接入58、赶集、安居客、到家、英才、商业、认证等核心数据源,梳理聚合亿级别的活跃ID,开发包含个人属性标签、认证标签、位置标签、B端行为标签、C端行为标签、兴趣标签、设备标签等7大类,2300+标签,平均每个用户近百个标签。
58用户画像有三种使用方式,分别为:
FaceAPI接口:提供的在线画像数据提取服务,支持手机号、设备号、账号、cookie等查询方式,通过这些键值可以拉取用户的全部标签,主要支持搜索、推荐、DSP等各场景的个性化应用。
离线画像数据:支持常用ID为主键,拉取所需要的标签,可以用于统计分析、模型训练等工作。
Smart网站:网站支持两大类功能,1)推送筛选功能,用户可以根据属性筛选用户包,做用户包之间的AND/OR逻辑,生产结果可以用于固定人群推送功能;2)人群分析功能,用户可以拖选人群属性,做二维的组合分析,并直接生产报表,方便产品或运营团队方便获取58用户群体的数据。
58用户画像应用流程如下:
二、58用户画像数据架构
用户画像构建的核心是数据的组织和标签的开发管理,58集团业务覆盖广泛,涉及房产、招聘、车辆、黄页等众多业务线,构建画像的数据来自于日志、简历库、帖子库、用户信息库、商家库、认证信息库等数据源,其中仅日志就涉及到58、赶集、安居客等各子产品的PC/M/APP日志,如何将众多数据源串联起来是构建用户画像面临的第一个问题。为此,我们根据58的数据特点构建了关联整个集团各类ID的IDMapping。IDMapping模型图如下:
IDMapping是58用户画像的核心模块之一,通过IDMapping公司众多数据源的ID可以映射为一个唯一的用户ID,也就是说通过IDMapping可以将58、赶集、安居客等核心数据源的数据打通,这样使用方才有可能通过一个账号或手机号就拿到该用户在各个业务线的全部行为。IDMapping还有一个作用是可以将多个ID的行为映射到一个人身上,这样不仅提升了数据密度,有利于改善个性化场景的匹配效率,也可以对问题用户做针对性治理的场景起到很大作用。IDMapping全量及增量流程如下:
我们采用共现ID关联的方式构造ID关联图谱,再根据业务属性,时间属性等因素对图谱做相应的拆解,目前58IDMapping中已经容纳几十种、超过100亿各类型ID,数据量的增长加大了运算成本,为了解决资源及性能问题,我们为IDMapping设计了全量及增量流程,使性能满足日更新需求。58用户画像系统架构如下:
在IDMapping基础上,我们搭建了用户画像系统架构,整个系统划分分三个层级,依次为数据资源管理层,负责对众多接入数据源做管控,包含数据接入工具、调度数据调度模块,数据质量监控模块,元数据管理模块等;在数据资源管理层之上是系统的核心,画像标签生产层,包含ETL、IDM、数据聚合模块、标签提取模块和一些算法策略工具;之上存储和应用层,画像数据在这一层整理成在线和离线表供各个出口使用。在画像的系统架构中,最重要的是画像生成层。画像标签生成逻辑如下:
在标签生成过程中,我们对接入数据做了一层抽象,用户行为数据被抽象为{用户ID、时间、位置、类目、行为、实体、其他}七元组,帖子被抽象为{实体、时间、位置、类目、属性表}五元组,通过这层抽象,不同的数据源接入后很方便做统一管理;在数据融合层,用户的行为会经过IDM做ID转换并以天为单位聚合在一起,生成以日为单位的用户行为数据表,在此之上,数据会按多时间切片再次聚合,并通过算法模型及规则策略生成各类型标签供应用层使用。
由于数据源众多,同一标签往往根据不同数据源的数据特点采取不同的策略生成标签,最后多个数据源产出的结果一定策略融合拼接得出最终标签。标签挖掘举例-性别:
以性别标签为例,性别标签既可以来源于简历、注册信息等数据源、也可以来源于使用分类算法根据用户的兴趣爱好预测性别,所以在性别标签生产过程中,会先取可靠数据源随后合并已知的性别信息,之后,使用算法预测算法尽可能地补全标签中的缺漏,不同来源的标签会赋予不同的权重,这样,可以在一定程度上改善特征数据稀疏的问题。
三、应用场景与案例分享
菲利普.科特勒 在《营销管理》中提到:
“新客来了之后,
接下来需要把他留在这个平台上,
尽量延长生命周期。
营销领域关于用户留存的两个基本观点是:
获取一个新顾客的成本是维系现有顾客成本的5倍!
如果将顾客流失率降低5%,
公司利润将增加25%~85%。”
用户画像已经广泛应用于个性化匹配,信息质量治理等领域,画像数据同时支持搜索、推荐、发布、信息安全等十余个部门近50个应用场景的在线离线数据使用,日均调用量10+亿/日。在提升搜索、推荐、推送的转化率、广告匹配、金融建模、用户身份识别、异常用户挖掘等领域,都取得了非常明显的效果。我们把依赖用户画像平台建模做了5级抽象,每一级都接受定制功能。基于用户画像数据的建模如下:
依赖用户画像平台建模可以被抽象为5个层级:
1.基础数据接入
用户画像平台已经接入58、赶集、安居客等主要数据源,也支持用户通过平台提供的数据接入工具接入新数据源,以便支持定制化的建模;
2.IDMapping
建模过程中通过IDMapping可以拿到用户ID关联特征,比如同一个账号被几个手机设备登录过,同时我们也支持接入新的ID,比如在一些挖掘项目中我们接入了用户支付编码。
3.画像标签
目前画像包含6大类,标签数量超过2300,也支持在接入数据源中定制新的标签,画像平台会自动完成标签的实时及离线过程。
4.用户特征
在利用画像平台获取规整后的数据后,可从中根据数据标签探索的结果提取所需建模维度,画像平台可以支持生产离线训练样本。
5.AI算法
依据实际业务需求场景以及模型效果匹配适合的算法输出模型结果,用户画像平台也可以支持评测数据生成等工作。
觉得内容还不错的话,请分享给更多的朋友哦
01. 公众号后台回复「06」领取「数据仓库」「数据治理」等经典电子书籍或视频赠送。
02. 如要获取《大牛带你从0到1建设数据仓库》实战高清PPT或数仓实战视频,请关注公众号后添加小助手微信[ ID:iom1128 昵称:紫霞仙子],备注:PPT。
03. 高手如云,拉您入群「数仓BI」,「Python」、「资料分享」,公众号后台回复:加群。技术大佬们在等你,各种资源定期分享~
Q: 关于数据仓库,你还想了解什么?
欢迎加群与大家分享
觉得不错,请把这篇文章分享给你的朋友哦
加群请联系小助手:iom1128『紫霞仙子』
更多干货、福利,请在后台点击“数仓之路”查看
!关注不迷路~ 各种福利、资源定期分享!